我们针对随机的多臂强盗及其具有线性预期奖励的上下文变体提出了基于多级汤普森采样方案的算法,在群集聚类的情况下。我们在理论上和经验上都表明,与使用标准汤普森采样相比,利用给定的集群结构如何显着改善遗憾和计算成本。在随机多军匪徒的情况下,我们对预期的累积后悔给出了上限,表明它如何取决于聚类的质量。最后,我们执行了经验评估,表明我们的算法与先前提出的具有聚集臂的匪徒相比表现良好。
translated by 谷歌翻译